Estrategia Minimax Óptima para Observaciones Retrasadas en Aprendizaje por Refuerzo Online Descubre la estrategia Minimax óptima para RL con observaciones retrasadas. Logra cotas de arrepentimiento ajustadas en MDPs tabulares. 2026-06-03 · 1 min